Table of Contents

Оценка результатов A/B-теста интернет-магазина

Цель исследования - провести оценку результатов A/B-теста изменений, связанных с внедрением улучшенной рекомендательной системы интернет-магазина.

Техническое задание

Обзор данных

В таблице 'ab_project_marketing_events' 4 столбца, 14 строк. В каждой строке информация о маркетинговой компании на 2020 год. Типы данных datetime64(2), object(2).

В таблице 'final_ab_new_users' 4 столбца, 61733 строки. В каждой строке информация о пользователях, зарегистрировавшихся в интернет-магазине в период с 7 по 23 декабря 2020 года. Типы данных datetime64(1), object(3).

В таблице 'final_ab_events' 4 столбца, 440 317 строк. В каждой строке информация о событиях новых пользователей в период с 7 декабря 2020 по 30 декабря 2020 года. Типы данных datetime64(1), float64(1), object(2).

В таблице 'final_ab_participants' 3 столбца, 18 268 строк. В каждой строке информация об участнике тестов. Типы данных object(3).

Вывод после обзора данных

Предварительно можно утверждать, что данных достаточно для анализа. Но в таблице final_ab_events есть информация о событиях только с 7 по 30 декабря 2020 года. В описании к данным сказано, что таблица final_ab_events содержит все события новых пользователей в период с 7 декабря 2020 по 4 января 2021 года. Либо новые пользователи не совершали событий после 30 декабря, либо это ошибка в формировании данных и у нас не полные данные. Необходимо обратиться к коллегам, которые отвечают за выгрузку данных и уточнить этот вопрос у них.

Типы данных соответствуют значениям, преобразвание типов не требуется.

Предобработка данных

В таблице ab_project_marketing_events дубликатов и пропусков не обнаружено.

В таблице final_ab_new_users дубликатов и пропусков не обнаружено.

В таблице final_ab_events дубликатов не обнаружено. Пропуски есть только в столбце details, но это поле не обязательно к заполнению и содержит дополнительные данные о событии. Например, для покупок, purchase, в этом поле хранится стоимость покупки в долларах.

В таблице final_ab_participants дубликатов и пропусков не обнаружено.

Выводы после предобработки

Дубликатов в таблицах не обнаружено. Пропуски есть только в таблице final_ab_events в столбце details, но это поле не обязательно к заполнению и содержит дополнительные данные о событии. Например, для покупок, purchase, в этом поле хранится стоимость покупки в долларах.

Проверка корректности проведения теста

Всего в данных есть информация о двух АВ тестах - 'recommender_system_test' и 'interface_eu_test'. Мы проверяем 'recommender_system_test'. В таблице есть информация о 6701 пользователе, которые принимали участие в тесте.

В тест попали пользователи из разных регионов, по ТЗ нас интересуют пользователи из EU, поэтому оставили только таких пользователей.

По ТЗ учасники нашего теста это 15% от новых пользователей из европы, так и есть.

В наших данных есть 783 пользователя, которые пересекаются с конкурирующим тестом и видели в нем изменения. Такие пользователи могут вести себя не так как остальные участники теста, так как на них влияет изменения в конкурирующем тесте, это в свою очередь может повлиять на результат анализа. Исключим таких пользователей из выборок.

Нет пользователей, участвующих в двух группах теста одновременно.

После всех проверок на соответствие ТЗ у нас осталось 5568 пользователей, ожидалось 6000 по ТЗ.

Распределение на группы не совсем равномерное. В группе А больше пользователей чем в группе В, доля пользователей в группе А 57,4%. Проведем анализ эксперемента с такими данными, но в будущем лучше более равномерно распределять пользователей по группам.

Минимальное значение first_date соответствует началу теста. Максимальное значения соответствует дате остановки набора новых пользователей.

Из 5568 учасников всего у 3050 пользователей было хотя бы одно событие.

Минимальное значение event_dt соответствует началу теста. Максимальное значение меньше даты остановки теста. Можно предположить, что после 29 декабря новые пользователи не совершали новых событий.

Во время теста проходила маркетинговая компания Christmas&New Year Promo направленная на пользователей из нашего эксперимента. Компания началась 25 декабря 2020 года и шла почти до конца эксперемента, до 3 января 2021 года.

На гистограмме видно, что рост числа событй начинается после 13 декабря и заканчивается к 25 декабря, можно сделать вывод, что маркетинговая компания не сильно влияет на количество событий. Проведем анализ эксперемента не смотря на маркетинговую компанию, которая проходила в период проведения эксперемента, но в будущем таких совпадений лучше избегать.

Выводы после проверки корректности проведения теста

Первоначально количество участников теста составляло 6701, после удаления участников не из Европы у нас остался 6351 участник, что составляет ровно 15% от новых пользователей из Европы, зарегистрировашихся в период с 7 по 21 декабря 2020г.

Однако, после удаление части пользователей, которые учавствовали в конкурирующем тесте и видели в нем изменения, у нас осталось 5568 участников, в то время как ожидалось 6000 участников. В будущем рекомендуем не допускать пересечений тестов.

Распределение на группы не совсем равномерное. В группе А больше пользователей чем в группе В, доля пользователей в группе А 57,4%. В будущем нужно более равномерно распределять пользователей по группам.

Дата запуска и дата регистрации первых пользователей совпадают - 2020-12-07

Дата остановки набора новых пользователей и дата регистрации последних пользователей совпадают - 2020-12-21

Из 5568 учасников всего у 3050 пользователей было хотя бы одно событие.

Дата запуска и дата первых событий совпадают - 2020-12-07

Дата остановки теста и дата последних событий не совпадают:

Дата последних событий на 6 дней меньше даты остановки теста. Либо новые пользователи не совершали событий после 29 декабря, либо это ошибка в формировании данных и у нас не полные данные. Необходимо обратиться к коллегам, которые отвечают за выгрузку данных и уточнить этот вопрос у них.

Во время теста проходила маркетинговая компания Christmas&New Year Promo направленная на пользователей из нашего эксперимента. Компания началась 25 декабря 2020 года и шла до 3 января 2021 года. Маркетинговая компания не сильно влияет на количество событий. В будущем таких совпадений лучше избегать.

Исследовательский анализ данных

Медианное количество событий на пользователя в группе А больше, чем в группе В.

Количество событий в группе А начинает резко расти с 14 декабря 2020 г. и достигает пика 21 декабря 2020 г., далее плавно снижается и обрывается 29 декабря 2020 г.

Количество событий группы В сначала снижается до 13 декабря, потом начинает расти до пика 16 декабря 2020 г. , потом небольшое падение и снова пик 21 декабря 2020г. далее снижение до 29 декабря 2020 г.,

Данных после 29 декабря 2020 г. нет.

В группе А конверсия в просмотр карточки товара составила 64.8%, в просмотр корзины 30.1%, в покупку 32.2%.

В группе В конверсия в просмотр карточки товара составила 55.6%, в просмотр корзины 27.8%, в покупку 28.4%.

Конверсия покупку больше, чем в просмотр корзины, возможно покупку можно совершить без просмотра корзины.

Конверсия в группе В ниже, чем в группе А.

На графике хорошо видно, насколько неравномерное разделение пользователей по группам, в группе А больше пользователей, чем в группе В.

Видно, что конверсия в группе В меньше, чем в группе А на 2-9%.

Вывод после исследовательского анализа данных

Медианное количество событий на пользователя в группе А больше, чем в группе В.

Количество событий в группе А начинает резко расти с 14 декабря 2020 г. и достигает пика 21 декабря 2020 г., далее плавно снижается и обрывается 29 декабря 2020 г.

Количество событий группы В сначала снижается до 13 декабря, потом начинает расти до пика 16 декабря 2020 г. , потом небольшое падение и снова пик 21 декабря 2020г. далее снижение до 29 декабря 2020 г.,

Данных после 29 декабря 2020 г. нет.

В группе А конверсия в просмотр карточки товара составила 64.8%, в просмотр корзины 30.1%, в покупку 32.2%.

В группе В конверсия в просмотр карточки товара составила 55.6%, в просмотр корзины 27.8%, в покупку 28.4%.

Конверсия по всем метрикам в группе В ниже, чем в группе А.

Особенности данных, которые нужно учесть, прежде чем приступать к A/B-тестированию

  1. Во время теста проходила маркетинговая компания Christmas&New Year Promo направленная на пользователей из нашего эксперимента. Компания началась 25 декабря 2020 года и шла до 3 января 2021 года.
  2. Количество участников теста - 5568. Ожидалось 6000, часть пользователей не подошли по условиям ТЗ и из-за пересечения с конкурирующим тестом.
  3. Распределение на группы не равномерное. В группе А больше пользователей чем в группе В.
  4. У нас нет данных по событиям с 30-го декабря и по 4 января

Анализ результатов эксперимента

Исследуем результаты A/B-эксперимента о изменениях, связанных с внедрением улучшенной рекомендательной системы. Пользователей разбили на 2 группы: А (контрольная), B (новая платёжная воронка).

Сравним доли пользователей, совершивших одно и тоже событие, в разных группах с помощью Z-критерия двух пропорций.

Критический уровень статистической значимости применим ɑ = 0,05.

При этом мы собираемся проверить 3 статистических гипотезы:

Чтобы снизить вероятность ложнопозитивного результата при множественном тестировании гипотез применим поправку Бонферрони, т.е. разделим ɑ на количество гипотез.

ɑ = 0.05 / 3 = 0.017

Проверим, находят ли статистические критерии разницу между выборками А (контрольная) и B (новая платёжная воронка).

Сформулируем гипотезы.

Нулевая: различий в долях пользователей, совершивших одно и тоже событие между группами А и В нет.

Альтернативная: различия в долях пользователей, совершивших одно и тоже событие между группами А и В есть.

Значимая разница между долями есть в только для события product_page. Тоесть изменение конверсии в просмотр карточек товаров между группами статистически значимо.

Помотрим насколько изменилась конверсия в просмотр карточек товаров между группами.

Конверсия в просмотр карточки товаров в группе В ниже по сравнению с группой А на 9%.

Вывод после анализа результатов эксперимента

Мы исследовали результаты A/B-эксперимента о изменениях, связанных с внедрением улучшенной рекомендательной системы.

Пользователей разбили на 2 группы: А (контрольная), B (новая платёжная воронка).

Проверили 3 статистических гипотезы:

Значимая разница между долями есть в только для события product_page. Тоесть изменение конверсии в просмотр карточек товаров между группами статистически значимо.

Конверсия в просмотр карточки товаров в группе В ниже по сравнению с группой А на 9%.

Из чего можно сделать вывод, что новая платёжная воронка не улучшает метрики, а конверсию в просмотр карточек товаров даже делает хуже.

Общий вывод

Мы проанализировали результаты A/B-эксперимента о изменениях, связанных с внедрением улучшенной рекомендательной системы. Проверили корректность проведения теста, убрали данные не соответствующие ТЗ. Изучили распределение количества событий на пользователя в выборках и распределение числа событий по дням, изучили воронки конверсий в каждой группе. Сравнили доли пользователей, совершивших одно и тоже событие, в разных группах с помощью Z-критерия двух пропорций.

  1. Количество участников эксперимента (5568) немного меньше ожидаемого (6000). Необходимо проанализировать причины и в будущем лучше планировать объем выборки.
  2. Распределение по группам А и В несбалансированное (57.4% в группе А). Лучше распределять пользователей поровну.
  3. Дата окончания эксперимента не совпадает с датой последних событий. Возможно, данные неполные.
  4. Проведение маркетинговой кампании во время эксперимента нежелательно. Лучше избегать таких совпадений.
  5. Конверсия по всем метрикам в группе В ниже, чем в А. Разница статистически значима только для конверсии в просмотр карточек товаров.

Таким образом, новая платежная воронка не улучшает метрики, а даже ухудшает конверсию в просмотр карточек товаров.

Общий вывод - результаты эксперимента неоднозначные. Есть вопросы к качеству данных и дизайну эксперимента. Рекомендуем провести повторный эксперимент с учетом выявленных недостатков.